AI资讯新闻榜单内容搜索-DeepSeek-V

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: DeepSeek-V
智源:FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破

智源:FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破

智源:FlagOS完成DeepSeekV4八款芯片Day0 适配,实现三重技术突破

由智源研究院牵头研发的众智 FlagOS 第一时间对两个“巨无霸”模型进行全量适配,已经完成 DeepSeek-V4-Flash 在8款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。FlagOS 同时正在推进 DeepSeek-V4-Pro 模型在多个芯片的迁移适配,晚些时间开源出来,敬请期待。

来自主题: AI资讯
7478 点击    2026-04-24 16:23
DeepSeek-V4 预览版:迈入百万上下文普惠时代

DeepSeek-V4 预览版:迈入百万上下文普惠时代

DeepSeek-V4 预览版:迈入百万上下文普惠时代

今天,我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。DeepSeek-V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本:

来自主题: AI资讯
8348 点击    2026-04-24 11:20
DeepSeek核心研究员郭达雅,曝入职字节

DeepSeek核心研究员郭达雅,曝入职字节

DeepSeek核心研究员郭达雅,曝入职字节

刚刚,图灵联合创始人刘江在海外社交媒体X上透露,DeepSeek核心研究院——郭达雅已加入字节跳动。 郭达雅2023年博士毕业后加入DeepSeek,title是AI Researcher。公开论文显示,从 DeepSeek-Coder、DeepSeek-Math、DeepSeek-Prover、DeepSeek-V3到 DeepSeek-R1,他都出现在核心作者名单中。

来自主题: AI资讯
8031 点击    2026-04-16 08:00
北大团队改造DeepSeek注意力,速度快四倍还不丢精度

北大团队改造DeepSeek注意力,速度快四倍还不丢精度

北大团队改造DeepSeek注意力,速度快四倍还不丢精度

就在大家都急头白脸地等待DeepSeek-V4的时候,冷不丁一篇新论文引起了网友们的注意—— 提出新稀疏注意力机制HISA(分层索引稀疏注意力),突破64K上下文的索引瓶颈,相比DeepSeek正在用的DSA(DeepSeek Sparse Attention)提速2-4倍。

来自主题: AI技术研报
7184 点击    2026-04-07 10:30
aiX-apply-4B逆袭DeepSeek-V3.2!aiXcoder发布代码变更应用模型,单卡推理提效15倍

aiX-apply-4B逆袭DeepSeek-V3.2!aiXcoder发布代码变更应用模型,单卡推理提效15倍

aiX-apply-4B逆袭DeepSeek-V3.2!aiXcoder发布代码变更应用模型,单卡推理提效15倍

硅心科技(aiXcoder)发布了一款专为「代码变更应用」场景设计的高性能、轻量级模型 aiX-apply-4B。基准测试结果显示,在 20 多种主流编程语言及 Markdown 等多类型文件格式的测试中,aiX-apply-4B 的平均准确率达到 93.8%,超越 Qwen3-4B 基座模型 62.6% 的准确度

来自主题: AI技术研报
8585 点击    2026-03-27 18:21
独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

独家|梁文锋将携DeepSeek V4撞上姚顺雨

我们独家获悉,外界千呼万唤的DeepSeek-V4将于4月正式上线。作为梁文锋打磨已久的多模态大模型,DeepSeek-V4除了在Coding能力上跃升之外,还将在LTM(long term memory长期记忆)上取得突破。

来自主题: AI资讯
10653 点击    2026-03-12 17:20
GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

GLM-5架构曝光,智谱两日涨60%:采用DeepSeek同款稀疏注意力

不管Pony Alpha是不是智谱的,下一代旗舰大模型GLM-5都要来了。GLM-5采用了DeepSeek-V3/V3.2架构,包括稀疏注意力机制(DSA)和多Token预测(MTP),总参数量745B,是上一代GLM-4.7的2倍。

来自主题: AI资讯
9449 点击    2026-02-10 16:27
这家西方开源大模型公司,开源出了DeepSeek-V3背后的架构!头部模型表现都差不多了,Mistral CEO自曝如何赚钱

这家西方开源大模型公司,开源出了DeepSeek-V3背后的架构!头部模型表现都差不多了,Mistral CEO自曝如何赚钱

这家西方开源大模型公司,开源出了DeepSeek-V3背后的架构!头部模型表现都差不多了,Mistral CEO自曝如何赚钱

面对《the Big Technology Podcast》抛出的问题,Mistral AI的 CEO Arthur Mensch 表示:大模型肯定会走向商品化,当模型表现越来越接近,那么竞争就不在于模型本身,而在于如何让客户用起来。

来自主题: AI资讯
8897 点击    2026-01-19 18:20
超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

机器之心发布 随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构(Mixture-of-Experts, MoE)及专家并行策略(Expert

来自主题: AI技术研报
9324 点击    2026-01-01 10:14